查看原文
其他

智能应用级弹性遥测,解决网络全量分析的所有痛苦

Panabit Panabit
2024-08-06

面对现代如此发达的交通网络,我们发现道路上的红绿灯、摄像头越来越多,这对整个道路交通管理起到了关键的作用,而网络管理和道路管理的性质类似,当网络建设达到一定程度时,有一个重要的问题就凸显了出来,那就是如何对网络进行高效的管理。作为网络管理部门需要有更加良好的管理工具以及手段,今天我们要讲的内容与网络管理有关,而网络管理的基础手段和数据来源就是网工们常提到的网络测量。

我们常用网络测量手段包括Ping、Tracert、SNMP、RFC2544、Y1731等,但显然在现在的网络环境中,随着业务应用的推陈出新和用户规模的不断增长,网络呈现出“高速率、大规模、多接入、不可预期”的特点,以上的网络测量手段也相继出现了一些的弊端。人们必须开始考虑以下的一些新问题:

1、超大规模设备管理:随着信息化的高速发展,人们使用的网络设备正在飞速增加,目前急需解决的第一个难题就是超大规模的设备监控。

2、业务故障快速定位:在日渐复杂的网络流量中,网络测量设备需要快速精准地定位故障,并且达到秒级、甚至亚秒级的故障定位速度。

3、业务种类精细监控:目前运维人员需要监控的数据流量的种类不但繁多,而且需要监控的颗粒度更细,以便完整、准确地反映网络状况,据此预估可能发生的故障,并为网络优化提供有力的数据依据。

这时候肯定有人会有些不同观点,毕竟SNMP、Ping、Tracert承载了所有网工的青春和回忆,怎么说不行就不行了呢?我们依次展开解说一下。


Ping

什么时候会用到Ping呢?那一定是在检测网络联通性的时候使用。

在网络建设的时候,Ping承载的是希望,网工们只要是能看到下面的字样,就证明工程已经完成了一多半了;

在处理故障的时候,Ping承载的是不屈不挠的信念,网工们一遍遍的Ping,只为最后得到一个正确的返回值。

但是,Ping使用的ICMP协议,并不属于网络中真实的流量,所以,Ping仅仅能判断网络的通断(没有任何策略的情况下),却不能实现具体业务的监控。


Tracert

和Ping的命运相同,Tracert也曾大红大紫过,网工们用Tracert检测源节点至每一个节点的时延信息以及节点信息,但是他和Ping一样,都是使用的ICMP协议,也始终无法代表真实的网络流量。


SNMP

SNMP 的出现,大大的提高了人们对网络的管理能力,网工们可以远程管理所有支持该协议的网络设备,如监视网络状态、修改网络设备配置、接收网络事件警告等。

不过,SNMP 每300s采集一次设备的数据,这导致了在SNMP眼里,网络流量基本上都是丝绸般的顺滑,在5分钟的时间间隔里,网络中可能发生了天翻地覆的变化,但是SNMP却浑然不知,如果你将查询时间缩短,那换来的将是网络设备和服务器CPU过载。


   Telemetry   

因此,面对大规模、高性能的网络监控需求,用户需要一种新的网络监控方式。Telemetry技术由此诞生,它可以满足用户要求,支持智能运维系统管理更多的设备、监控数据拥有更高精度和更加实时、监控过程对设备自身功能和性能影响小,为网络问题的快速定位、网络质量优化调整提供了最重要的大数据基础,将网络质量分析转换为大数据分析,有力的支撑了智能运维的需要。

个人、企业和政府越来越期望使用遥测技术与我们的生活和工作环境更加智能化地进行交互。Telemetry 将各种各样的设备连接至因特网和企业,从而降低了为智能设备构建应用程序的成本。


Telemetry的网络模型

说的简单一些,Telemetry的模型中分为几类设备:

1) 网络设备:泛指被监测的设备;

2) 采集器:可以是网络设备中自带的功能模块,也可以是单独的产品;

3) 分析器:泛指用来做数据分析的平台,可以是网管平台也可以是态势感知平台;

4) 控制器:一般和分析器属于同一个产品,也可以是独立的云管理平台。

 

Telemetry的目的,就是将远端网络设备的信息上报到总部,目前主要的数据回传方式有以下三种类型:

1)基于 gRPC 的 Telemetry

基于 gRPC 的 Telemetry 技术可以采集设备的接口流量统计、CPU、告警等数据,对采集到的数据进行 Protocol Buffer 编码后,实时上报给采集器进行接收和存储。

 

2)基于 INT 的 Telemetry

INT 由 Barefoot、Arista、Dell、Intel 和 Vmware 提出,是一种从设备上采集数据的网络监控技术。设备主动向采集器上送采集数据,提供实时、高速的数据采集功能,达到对网络设备的性能及网络运行情况进行监控的目的。INT 主要用来采集报文经过的路径和报文传输时延等数据平面信息。INT 监控粒度为单个数据包,可以实现完整的网络状态实时监控。

 

3)基于 ERSPAN 的 Telemetry

ERSPAN 是一种端口报文镜像技术,它能够将端口上的报文镜像后,封装为协议号为 0x88BE的 GRE 报文,并将其发送到远端监控设备。用户可以根据实际需求定义待镜像的报文,例如镜像 TCP 三次握手报文以便监控 TCP 连接建立情况、镜像 RDMA 信令报文以便监控 RDMA 会话状态。

 不过现在的Telemetry技术并没有大量的出现在现网中,大部分的Telemetry只存在于PPT中,确实有些可惜,限制该技术使用的因素主要有以下几个:

1) 遥测监测数据单一:尤其是INT方式的遥测,只能针对特定路径上的设备进行采集;

2) 遥测回传开销过大:采集器采集到数据后,会在原数据包头部增加新的协议包头,由于现有的隧道协议包头过长,造成很大的开销负担;

3) 分支流量无法区分:有很多分支点内部地址规划一致,回传至总部将无法进行区分;

4) 设备性能严重不足:产品手册虽然有该功能,但是现网设备不敢轻易开启。

5)  对网络改动较大:一旦决定要使用Telemetry,意味着全网的大范围设备替换改造。

 

智能化应用级遥测(L7 Telemetry)

面对以上的问题,我们需要一款全新的L7 Telemetry产品,作为新一代的L7 Telemetry产品,应该具备哪些能力呢?我们请往下看。

产品功能

1) 部署方式:采集器、分析器的部署方式要灵活,需要支持旁路部署、串接部署或是混合模式部署;

2) 数据回传:远端的数据被采集后,回传使用的VPN协议要具有快速的重连性,保证数据包开销较小;

3) 数据区分:采集器支持对流量进行标记,相同IP地址段的数据在分析器侧也可以区分;

4) 数据采集:采集数据支持对流量进行筛选,颗粒度精准到L7应用级,筛选策略支持五元组、域名、应用等多种方式;

5) 数据共享:采集回来的数据要支持和现有的安全设备无缝对接,实现资源利用的最大化。


那么L7 Telemetry设备适用于哪些场景呢?

适用场景

1) 大型企业内网的汇聚、接入、核心节点的流量监控

让企业真正实现全流量监测,提升安全监管力度,无需重复部署安全设备,且针对不同部门之间的东西向流量进行全面监控。

2) 大型企业的广域网分支出口的流量监控

拒绝安全信息孤岛,分支点采集回传总部,实现统一安全流量分析以及业务质量监测。

3) 公有云出口的流量监控

增加对公有云内部流量的管控能力,增加公有云安全防护能力以及提升业务质量。

4) 监管部门关注的企业出口流量监控

方便监管部门调用企业流量,实时数据采集,提升监管部门的工作效率。

 

关于遥测的基础内容小月月就先介绍到这里,接下来我们将对L7 Telemetry的每一种应用场景进行详细的展开,并对L7 Telemetry的优势功能进行逐一描述。感谢大家阅读,让我们4月份见。L7 Telemetry内部尝鲜版本,请扫描下方微信单线联系我们。

 


更多精彩:

智慧网络才配得上智慧教室

用户该如何选择一款适合自己的流量探针设备?(上)

用户该如何选择一款适合自己的探针设备?(下)

白盒5G CPE适配第三方商业软件来了

修改于
继续滑动看下一个
Panabit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存